智能论文笔记

FedNew: A Communication-Efficient and Privacy-Preserving Newton-Type Method for Federated Learning

Anis Elgabli , Chaouki Ben Issaid , Amrit S. Bedi , Ketan Rajawat , Mehdi Bennis , Vaneet Aggarwal

分类：机器学习 | (统计)机器学习

2022-06-17

牛顿型方法由于其快速收敛而在联合学习中很受欢迎。尽管如此，由于要求将Hessian信息从客户发送到参数服务器（PS），因此他们遭受了两个主要问题：沟通效率低下和较低的隐私性。在这项工作中，我们介绍了一个名为Fednew的新颖框架，其中无需将Hessian信息从客户传输到PS，因此解决了瓶颈以提高沟通效率。此外，与现有的最新技术相比，Fednew隐藏了梯度信息，并导致具有隐私的方法。 Fednew中的核心小说想法是引入两个级别的框架，并在仅使用一种交替的乘数方法（ADMM）步骤更新逆Hessian级别产品之间，然后使用Newton的方法执行全局模型更新。尽管在每次迭代中只使用一个ADMM通行证来近似逆Hessian梯度产品，但我们开发了一种新型的理论方法来显示Fednew在凸问题上的融合行为。此外，通过利用随机量化，可以显着减少通信开销。使用真实数据集的数值结果显示了与现有方法相比，在通信成本方面，Fednew的优越性。

translated by 谷歌翻译

Multi Robot Collision Avoidance by Learning Whom to Communicate

Senthil Hariharan Arul , Amrit Singh Bedi , Dinesh Manocha

分类：机器人

2022-09-14

分散的多代理导航的代理缺乏世界知识，无法可靠地制定安全和（接近）最佳计划。他们将决定基于邻居的可观察状态，这隐藏了邻居的导航意图。我们提出了通过机构间沟通的增强分散导航，以提高其绩效和援助代理，以做出合理的导航决策。在这方面，我们提出了一种新颖的增强学习方法，用于使用选择性间隔沟通来避免多代理碰撞。我们的网络学会决定“何时”并与“谁”交流，以端到端的方式索取其他信息。我们将沟通选择作为链接预测问题，在该问题中，如果可以观察到的信息，网络可以预测是否需要通信。传达的信息增加了观察到的邻居信息以选择合适的导航计划。随着机器人的邻居数量的变化，我们使用多头自发项机制来编码邻居信息并创建固定长度的观察向量。我们验证我们提出的方法在挑战模拟基准中实现了多个机器人之间的安全有效导航。通过学习的通信，我们的网络的性能比在各种指标（例如到目标和碰撞频率）中的现有分散方法的表现要好得多。此外，我们展示了网络有效地学会在高复杂性情况下进行必要时进行交流。

translated by 谷歌翻译

RTAW: An Attention Inspired Reinforcement Learning Method for Multi-Robot Task Allocation in Warehouse Environments

Aakriti Agrawal , Amrit Singh Bedi , Dinesh Manocha

分类：机器人

2022-09-13

我们提出了一种基于新颖的增强学习算法，用于仓库环境中的多机器人任务分配问题。我们将其作为马尔可夫的决策过程提出，并通过一种新颖的深度多代理强化学习方法（称为RTAW）解决了启发性的政策体系结构。因此，我们提出的策略网络使用独立于机器人/任务数量的全局嵌入。我们利用近端政策优化算法进行培训，并使用精心设计的奖励来获得融合的政策。融合的政策确保了不同机器人之间的合作，以最大程度地减少总旅行延迟（TTD），这最终改善了Makepan的大型任务列表。在我们的广泛实验中，我们将RTAW算法的性能与最先进的方法进行了比较，例如近视皮卡最小化（Greedy）和基于遗憾的基于不同导航方案的基线。在TTD中，我们在TTD中显示了最高14％（25-1000秒）的情况，这些方案具有数百或数千个任务，用于不同挑战性的仓库布局和任务生成方案。我们还通过在模拟中显示高达$ 1000 $的机器人的性能来证明我们的方法的可扩展性。

translated by 谷歌翻译

DC-MRTA: Decentralized Multi-Robot Task Allocation and Navigation in Complex Environments

Aakriti Agrawal , Senthil Hariharan , Amrit Singh Bedi , Dinesh Manocha

分类：机器人 | 机器学习

2022-09-07

我们为仓库环境中的移动机器人提供基于新颖的强化学习（RL）任务分配和分散的导航算法。我们的方法是针对各种机器人执行各种接送和交付任务的场景而设计的。我们考虑了联合分散任务分配和导航的问题，并提出了解决该问题的两层方法。在更高级别，我们通过根据马尔可夫决策过程制定任务并选择适当的奖励来最大程度地减少总旅行延迟（TTD）来解决任务分配。在较低级别，我们使用基于ORCA的分散导航方案，使每个机器人能够独立执行这些任务，并避免与其他机器人和动态障碍物发生碰撞。我们通过定义较高级别的奖励作为低级导航算法的反馈来结合这些下层和上层。我们在复杂的仓库布局中进行了广泛的评估，并具有大量代理商，并根据近视拾取距离距离最小化和基于遗憾的任务选择，突出了对最先进算法的好处。我们观察到任务完成时间的改善高达14％，并且在计算机器人的无碰撞轨迹方面提高了40％。

translated by 谷歌翻译

HTRON:Efficient Outdoor Navigation with Sparse Rewards via Heavy Tailed Adaptive Reinforce Algorithm

Kasun Weerakoon , Souradip Chakraborty , Nare Karapetyan , Adarsh Jagan Sathyamoorthy , Amrit Singh Bedi , Dinesh Manocha

分类：机器人

2022-07-08

我们提出了一种新的方法，以改善基于深入强化学习（DRL）的室外机器人导航系统的性能。大多数现有的DRL方法基于精心设计的密集奖励功能，这些功能可以学习环境中的有效行为。我们仅通过稀疏的奖励（易于设计）来解决这个问题，并提出了一种新颖的自适应重尾增强算法，用于户外导航，称为Htron。我们的主要思想是利用重尾政策参数化，这些参数隐含在稀疏的奖励环境中引起探索。我们在三种不同的室外场景中评估了针对钢琴，PPO和TRPO算法的htron的性能：进球，避免障碍和地形导航不均匀。我们平均观察到成功率的平均增加了34.41％，与其他方法相比，与其他方法获得的导航政策相比，为达到目标的平均时间步骤下降了15.15％，高程成本下降了24.9％。此外，我们证明我们的算法可以直接转移到Clearpath Husky机器人中，以在现实情况下进行户外地形导航。

translated by 谷歌翻译

$\texttt{FedBC}$: Calibrating Global and Local Models via Federated Learning Beyond Consensus

Amrit Singh Bedi , Chen Fan , Alec Koppel , Anit Kumar Sahu , Brian M. Sadler , Furong Huang , Dinesh Manocha

分类：机器学习

2022-06-22

在联合学习（FL）中，通过跨设备的模型更新进行合作学习全球模型的目的倾向于通过本地信息反对个性化的目标。在这项工作中，我们通过基于多准则优化的框架以定量的方式校准了这一权衡，我们将其作为一个受约束的程序进行了：设备的目标是其本地目标，它试图最大程度地减少在满足非线性约束的同时，以使其满足非线性约束，这些目标是其本地目标。量化本地模型和全局模型之间的接近度。通过考虑该问题的拉格朗日放松，我们开发了一种算法，该算法允许每个节点通过查询到一阶梯度Oracle将其Lagrangian的本地组件最小化。然后，服务器执行Lagrange乘法器上升步骤，然后进行Lagrange乘法器加权步骤。我们称这种实例化的原始偶对方法是联合学习超出共识（$ \ texttt {fedBc} $）的实例。从理论上讲，我们确定$ \ texttt {fedBc} $以与最算好状态相匹配的速率收敛到一阶固定点，直到额外的错误项，取决于由于接近性约束而产生的公差参数。总体而言，该分析是针对非凸鞍点问题的原始偶对偶的方法的新颖表征。最后，我们证明了$ \ texttt {fedBc} $平衡了整个数据集（合成，MNIST，CIFAR-10，莎士比亚）的全球和本地模型测试精度指标，从而与艺术现状达到了竞争性能。

translated by 谷歌翻译

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm

Qinbo Bai , Amrit Singh Bedi , Vaneet Aggarwal

分类：机器学习 | 人工智能

2022-06-12

我们考虑了在连续的状态行为空间中受到约束马尔可夫决策过程（CMDP）的问题，在该空间中，目标是最大程度地提高预期的累积奖励受到某些约束。我们提出了一种新型的保守自然政策梯度原始二算法（C-NPG-PD），以达到零约束违规，同时实现了目标价值函数的最新融合结果。对于一般策略参数化，我们证明了价值函数与全局最佳功能的融合到由于限制性策略类而导致的近似错误。我们甚至从$ \ Mathcal {o}（1/\ epsilon^6）$从$ \ Mathcal {o}（1/\ Epsilon^4）$提高了现有约束NPG-PD算法\ cite {ding2020}的样本复杂性。。据我们所知，这是第一项通过自然政策梯度样式算法建立零约束违规的工作，用于无限的地平线折扣CMDP。我们通过实验评估证明了提出的算法的优点。

translated by 谷歌翻译

Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies

Souradip Chakraborty , Amrit Singh Bedi , Alec Koppel , Pratap Tokekar , Dinesh Manocha

分类：机器学习 | 机器人

2022-06-12

在本文中，我们提出了一种新颖的重尾随机策略梯度（HT-PSG）算法，以应对连续控制问题中稀疏奖励的挑战。稀疏的奖励在连续控制机器人技术任务（例如操纵和导航）中很常见，并且由于对状态空间的价值功能的非平凡估计而使学习问题变得困难。这需要奖励成型或针对稀疏奖励环境的专家演示。但是，获得高质量的演示非常昂贵，有时甚至是不可能的。我们提出了一个重型策略参数化，以及基于动量的策略梯度跟踪方案（HT-SPG），以引起对算法的稳定探索行为。提出的算法不需要访问专家演示。我们测试了HT-SPG在连续控制的各种基准测试任务上的性能，并具有稀疏的奖励，例如1d Mario，病理山车，Openai体育馆的稀疏摆和稀疏的Mujoco环境（Hopper-V2）。就高平均累积奖励而言，我们在所有任务中表现出一致的性能提高。 HT-SPG还证明了最低样品的收敛速度提高，从而强调了我们提出的算法的样品效率。

translated by 谷歌翻译

Distributed Riemannian Optimization with Lazy Communication for Collaborative Geometric Estimation

Yulun Tian , Amrit Singh Bedi , Alec Koppel , Miguel Calvo-Fullana , David M. Rosen , Jonathan P. How

分类：机器人

2022-03-02

我们介绍了第一个分布式优化算法，该算法具有懒惰的通信，以进行协作几何估计，现代协作同时本地化和映射（SLAM）和结构 - 莫特 - 莫蒂（SFM）应用程序的骨干。我们的方法允许代理通过融合单个观察结果在中央服务器上合作重建共享的几何模型，但无需传输有关代理本身（例如其位置）的潜在敏感信息。此外，为了减轻迭代优化期间的通信负担，我们设计了一组通信触发条件，使代理能够选择性地上传针对性的本地信息的目标子集，该信息对全球优化有用。因此，我们的方法可实现大量的沟通减少，对优化性能的影响最小。作为我们的主要理论贡献，我们证明我们的方法以全球sublinear收敛速率收敛到一阶关键点。关于合作SLAM和SFM数据集的捆绑调整问题的数值评估表明，我们的方法在现有的分布式技术方面具有竞争力，同时达到了多达78％的总沟通减少。

translated by 谷歌翻译

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Primal-Dual Approach

Qinbo Bai , Amrit Singh Bedi , Mridul Agarwal , Alec Koppel , Vaneet Aggarwal

分类：机器学习

2021-09-13

强化学习被广泛用于在与环境互动时需要执行顺序决策的应用中。当决策要求包括满足一些安全限制时，问题就变得更加具有挑战性。该问题在数学上是作为约束的马尔可夫决策过程（CMDP）提出的。在文献中，可以通过无模型的方式解决各种算法来解决CMDP问题，以实现$ \ epsilon $ - 最佳的累积奖励，并使用$ \ epsilon $可行的政策。 $ \ epsilon $可行的政策意味着它遭受了违规的限制。这里的一个重要问题是，我们是否可以实现$ \ epsilon $ - 最佳的累积奖励，并违反零约束。为此，我们主张使用随机原始偶对偶方法来解决CMDP问题，并提出保守的随机原始二重算法（CSPDA），该算法（CSPDA）显示出$ \ tilde {\ tilde {\ Mathcal {o}} \ left（1 /\ epsilon^2 \ right）$样本复杂性，以实现$ \ epsilon $ - 最佳累积奖励，违反零约束。在先前的工作中，$ \ epsilon $ - 最佳策略的最佳可用样本复杂性是零约束的策略是$ \ tilde {\ Mathcal {o}}} \ left（1/\ epsilon^5 \ right）$。因此，与最新技术相比，拟议的算法提供了重大改进。

translated by 谷歌翻译